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Forschungsarbeit 



Wirken sich unterschiedliche medizinische Curricula auf 
das selbst eingeschatzte klinische Denken von 
Studierenden aus? 



Zusammenfassung 

Zielsetzung: Das klinische Denken ist eine zentrale Grundlage des 
arztlichen Handelns und sollte durch das Studium in den humanmedi- 
zinischen Studiengangen gefordert werden. Welche Lehr- und Lernfor- 
men hierzu vor allem beitragen, ist bis heute allerdings noch nicht ab- 
schliei?end gezeigt. Zur IVlessungderwissensunabhangigen Komponente 
des klinisctien Denkens wurde das Diagnostic Tliinliing Inventory (DTI) 
entwickelt. Die vorliegende Pilotstudie untersucht, ob dieses Instrument 
dazu geeignet ist, Unterschiede im klinlschen Denken von Studierenden 
in unterschiedlichen Ausbildungsabschnitten dreier medizinlscher 
Curricula aufzuzeigen. 

Methodik: Das Diagnostic Thinking Inventory (DTI) umfasst 41 Items 
in zwei Subskalen („Flexibilitat des Denkens" und „Strukturierung des 
Wissens"). Jedes Item enthalt eine Aussage oder Feststellung uber das 
klinische Denken in Form eines Stammes und darunter jeweils eine 6- 
Punkt-Skala an deren beiden Enden gegensatzliche Aussagen stehen. 
Zwischen diesen beiden Extremen sollen die Probanden ihr eigenes 
klinisches Denken einordnen. Die deutsche Ubersetzungdes DTI wurde 
von 247 freiwilligen Studierenden aus drei Fakultaten und verschiede- 
nen klinischen Semestern ausgefullt. In einem quasi experimentellen 
Design waren 219 Teilnehmer aus Regel- und IVlodellstudiengangen in 
Nordrheinwestfalen beteiligt, genauer aus dem 5., 6. und 8. Semester 
des IVlodellstudiengangs der Universitat Witten/Herdecke (UW/H), aus 
dem IVlodell- (7. und 9. Semester) und Regelstudiengang (7. Semester) 
der Ruhr-Universitat Bochum (RUB) und aus dem IVlodellstudiengang 
(9. Semester) der Universitat zu Koln (UzK). Die gewonnenen Daten 
wurden quantitativ ausgewertet. 

Ergebnisse: Die Reliabilitat des Gesamt-Fragebogens war gut (Cronbachs 
alpha zwischen 0,71 und 0,83); die Reliabilitat der Subskalen lag zwi- 
schen 0,49 und 0,75. Die unterschiedlichen Gruppen wurden mittels 
Mann-Whitney Test miteinander verglichen. Dabei wurden signifikante 
Unterschiede sowohl zwischen Semesterkohorten innerhalb einer Fa- 
kultatalsauch zwischen Studierenden vergleichbarer Jahrgange unter- 
schiedlicher Fakultaten gemessen. Innerhalb des Modellstudiengangs 
an der UW/H nahm die Punktzahl vom 5. zum 6. und vom 5. zum 9. 
Semester zu. Zwischen den einzelnen Kohorten der RUB konnten weder 
Unterschiede zwischen Modell- und Regelstudiengang noch zwischen 
dem 7. und dem 9. Semester des Modellstudiengangs gemessen wer- 
den. Vergleicht man alle beteiligten hochsten Semester, so erreicht das 
8. Semester an der UW/H die groSte Punktzahl, die signifikant hoher 
ist als die des 9. Semesters an der RUB oder auch des 9. Semesters 
an der UzK. Das 9. Semester der RUB liegt signifikant hoher als das 9. 
Semester der UzK. 

DIskusslon: Die deutsche Fassung des DTI misst selbst eingeschatzte 
Unterschiede im diagnostischen Denken bei Studierenden aus unter- 
schiedlichen Semestern und aus verschiedenen medizinischen Modell- 
und Regelstudiengangen mit zufriedenstellender Zuverlassigkeit. Die 
Ergebnisse lassen sich vor dem Hintergrund der unterschiedlichen 
Curricula diskutieren. Damit eignet sich der DTI fur weiterfuhrende Un- 
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tersuchungen, diedann mitden unterrichtsmethodischen Charakteris- 
tika und Outcomes verschiedener Curricula korreliert werden konnen. 

Schliisselworter: clinical thinking, clinical reasoning, PBL, diagnostic 
thinking inventory 



Einleitung 

Das klinische Denken ist eine zentrale Komponente 
arztlicher Kompetenz. Eine optimale Patientenversorgung 
hangt von der sorgfaltigen Analyse der vom Patienten 
gegebenen Informationen und der Abwagung zwischen 
dem Nutzen und den Risiken von diagnostischen Tests 
und Therapien ab. 

Daher hatauch jede universitare Ausbildungvon Medizin- 
studierenden das Ziel, Absolventen mit guten klinischen 
Denkfahigkeiten auszubilden. Doch ob eine bestimmte 
Form des Unterrichts diese Fahigkeiten besonders gut 
fordert, ist bis heute nicht eindeutig nachgewiesen. 
Klinische Probleme unterscheiden sich grundsatzlich von 
wohlstrukturierten Aufgaben. Zu Beginn des Prozesses 
liegen noch nicht alle notwendi-igen Informationen vor, 
und die Art eines Problems kann sich wahrend des dia- 
gnostisch-therapeutischen Prozesses (Anamnese und 
Untersuchung) dynamisch verandern. Es handeltsich um 
komplexes Problemlosen, weil es keine standar- 
di-isier-iten Vorge-ihensweisen gibt, die sicher zu einer 
Losung fuhren; stattdessen sind sie fur jedes Problem 
einzigartig, und der Arzt kann nie ganz sicher sein, dass 
die gefundene Losung auch tatsachlich die richtige ist 
[1], [2]. 

Modelle klinischen Denkens 

In der Ausbildungsforschung wird seit den 70er Jahren 
intensivauf diesem Gebietgearbeitet. Das Ziel ist, besser 
beschreiben zu kdnnen, welche Prozesse wahrend des 
klinischen Denkens ablaufen und wie sich Experten von 
Novizen unterscheiden. Daraus sollen Schlusse gezogen 
werden, die aufzeigen, wie man klinisches Denken besser 
unterrichten kann. 

Im Laufe dieser Zeit wechselten viele Konzepte zur Erkla- 
rungdes Expertise-Erwerbs im klinischen Denken einan- 
der ab und wurden weiterentwickelt [3]. Ein Konzept ist 
z.B. das der sogenannten „illness scripts" [4]. Letztere 
sind Reprasentationen von Problemen, z.B. von Krankhei- 
ten, Syndromen oder Gruppen von Krankheiten zusam- 
men mit den Bedingungen, unter denen sie auftreten, 
ihren Manifestationen, Diagnosen und Therapiekonzep- 
ten, ebenso wie ihre pathophysiologischen Grundlagen. 
Andere Modelle betonen, dass medizinische Expertise 
besonders durch intensive Praxiserfahrungen erreicht 
wird [5], [6]. Es konnte empirisch gezeigt werden, dass 
Fahigkeiten, die sich dem klinischen Problemlosen zuord- 
nen lassen, bei Experten elaboriertersind als bei Novizen 
[7]. Dabei zeigte sich z.B., dass Expertenwissen v.a. durch 
Wahrscheinlichkeiten verknupft ist [4], oder dass es ge- 
pragt ist von Mustern, die spontan erkannt und dann 
wiederum hypothetisch-deduktiv bestatigt werden [2]. 



Des Weiteren sind Experten besser in der Anwendung 
von sogenannten „semantic qualifiers", die ein Symptom 
auf einer bipolaren Skala einordnen oder in der Qualitat 
von in einer Patientengeschichte erkannten Schlussel- 
merkmalen [8]. 

Daneben ist das klinische Denken aber auch von Inhalt 
und Kontextabhangig[9] und Expertise auf einem Gebiet 
bedeutet nicht ein vergleichbares Konnen in einer ande- 
ren Spezialdisziplin oder in einem anderen Patientenfall. 
Selbst innerhalb eines Gebietes ist Expertise nicht gene- 
ralisierbar [10], [11]. 

All diese Ansatze werden nicht mehr als sich gegenseitig 
ausschlieSend angesehen [12]. Experten nutzen demzu- 
folge parallel sowohl analytische (deduktive, kontrollierte) 
als auch nicht-analytische Prozesse (unbewusste, spon- 
tane) zur Losung ihrer Patientenfalle, denn das effektive 
klinische Problemlosen basiert einerseits auf klaren Ab- 
laufen der Informationssammlung, Hypothesenbildung 
und Hypothesentestung. Andererseits ist zur Diagnose- 
stellungeine Kenntnis derzugrundeliegenden Mechanis- 
men notwendig, und dieses Wissen muss problembezo- 
gen integriertund mental organisiert werden. Das Wieder- 
erkennen von Mustern beschleunigt das Wiederabrufen. 
Beide Prozesse erganzen sich und es findet ein bidirek- 
tionaler Austausch oder Informationsfluss statt [13]. 

Unterricht im klinischen Denken? 

Die Frage, wie man Studierende in diesen komplexen 
Fahigkeiten optimal unterrichten kann, ist bis heute aus 
gutem Grund nicht eindeutig beantwortet. 
Studierende, denen beispielsweise die Methode der 
Heuristik fur konkurrierende Hypothesen (Bayes' Theo- 
rem) beigebracht wurde, konnten diese Methode nach 
der Unterrichtseinheit zwar gut anwenden, scheiterten 
spater in der Klinik jedoch an der Ubertragung dieses 
abstrakten Modells in die Praxis [14]. In anderen Studien 
konnte gezeigt werden, dass sich die Arbeit an didaktisch 
ausgewahlten Patientenfallen mit Fehlern und elaborier- 
tem Feedback oder an Fallbeispielen mit Instruktion po- 
sitiv auf das klinische Denken in der jeweiligen Versuchs- 
situation auswirkt [15], [16], [17]. 
Zwei Lehr- und Lernumgebungen haben sich bisherfast 
ubereinstimmend als effektiv zur Forderung des klini- 
schen Denkens erwiesen: einerseits problemorientiertes 
Lernen (PbL) und klinische Praktika/klinische Erfahrung. 
PbL soil deshalb dazu beitragen, dass Studierende besser 
das klinische Denken eriernen [18], [19], [20], da im PbL 
der Probleml5seprozess besonders gut eriernt und geubt 
wird [21]. PbL verbindet Inhalt mit Kontext, und die An- 
wendung von Wissen auf klinische Probleme fordert die 
Entwicklung von zusammenhangenden, pahophysiologi- 
schen Konzepten [21], [22]. Eine Meta-Analyse [23] zur 
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Frage, welche Unterrichtsformen das klinische Denken 
fordern kdnnen, fand zwei Untersuchungen, die zeigen, 
dass sich Studierende durch PbL im kritischen Denken 
verbessern [24], [25], und dass sie gegenuber anderen 
Studierenden akkuratere, zusammenhangende und um- 
fassendere Erklarungen fur medizinische Probleme liefern 
[22]. Allerdings ist kritisches Denken nicht notwendiger- 
weise mit klinischem Denken gleichzusetzen. 
Die konkrete klinische Erfahrung mit Patienten ist ein 
weiterer unverzichtbarer Faktor fur die Entwicklung klini- 
schen Denkens. Erstens mussen Studierende ihre erlern- 
ten Fahigkeiten auch uben [26], zweitens wird klinisches 
Denken stark durch Erfahrung beeinflusst [12] und ist 
eine Konsequenz von sich daraus entwickelndem multi- 
dimensionalem Wissen. Es hat sich gezeigt, dass der 
Entwicklungsstand von Studierenden oft eher ihrer klini- 
schen Erfahrung z.B. durch Famulaturen als dem Studien- 
jahrentspricht [27], [28]. 

Auf Basis dieser Erkenntnisse lasst sich vermuten, dass 
traditionelle Curricula, in denen Facher oft isoliert unter- 
richtet werden, kein oder nur wenig PbL eingesetzt wird 
und klinische Erfahrung erst spater und oft in geringerem 
Umfangstattfindet, die Studierenden wenigerGelegenheit 
haben, das klinische Denken zu lernen und zu uben. 

Messung des klinischen Denkens 

Um das klinische Denken per Selbsteinschatzung zu 
messen, wurde 1990 von Bordage und Marsden ein 
entsprechendes Inventar entwickelt [29], das sog. Dia- 
gnostic Thinking Inventory (DTI). Bis dahin wurden Inven- 
tare verwendet, die z.B. kritisches (nicht klinisches) 
Denken gemessen haben. Probanden mussten dabei 
mundlich oder schriftlich ihre Denkprozesse eriautern 
Oder es wurde die Losung von konkreten klinischen Pro- 
blemen getestet. Das DTI istdagegen ein Instrument, das 
unabhangig vom Kontext die selbst eingeschatzte Flexi- 
bilitat des Denkens und die Strukturierung des Wissens 
misst und zwischen Medizinern verschiedener Ausbil- 
dungsstufen differenzieren kann. Es besteht aus 41 
Items, in denen die Probanden ihr Denken in vorgegebe- 
nen Situationen auf einer Skala einschatzen. Die Antwor- 
ten wiederum reprasentieren eine bestimmte Stufe des 
klinischen Denkens. Dies wurde ursprunglich anhand von 
270 Versuchspersonen in unterschiedlichen Ausbildungs- 
stadien von Erstsemester-Studierenden bis hin zu erfah- 
renen Arzten untersucht. Es konnten signifikante Unter- 
schiede zwischen den Studierenden und den Arzten auf- 
gezeigt werden, die Unterschiede innerhalb der Arzte mit 
verschieden groSer Erfahrung waren dagegen nicht signi- 
fikant. 

Das DTI-lnventar wurde in den nachfolgenden Jahren in 
verschiedenen Studien eingesetzt und validiert [30] und 
auch im Zusammenhang mit anderen kognitiven oder 
psychometrischen Tests untersucht [31]. 
Insgesamt sind die bisherigen mit dem DTI eriangten 
Studienergebnisse nicht einheitlich. In der Mehrheit der 
Studien verbessern sich allerdings durch Unterricht zum 
klinischen Problemlosen, zu Fehlern bei der Diagnosefin- 



dung, durch Bearbeitung von Patientenfallen, Teilnahme 
an diagnostischen Fallbesprechungen oderzunehmende 
Studiendauer die DTI-Ergebnisse von Studierenden signi- 
fikant [32], [33], [34], [35], [36]. In zwei anderen Studien 
zeigte sich dagegen keine Verbesserung im DTI durch die 
vorgenommenen Interventionen [26], [37]. 
Das Inventar misst die Selbsteinschatzung der Probanden 
uber Art und Struktur ihres klinischen Denkens, nicht je- 
doch ihre tatsachliche Diagnosefahigkeit. Daher ist die 
Korrelation zwischen Ergebnissen des DTI und gel5sten 
Fallen oder erstellten Diagnosen oft nur gering [6], [32]. 
Zur Erstellung der korrekten Diagnose muss zusatzlich 
zur Fahigkeit zum klinischen Denken auch eine entspre- 
chende Wissensbasis im jeweiligen Fachgebiet und klini- 
sche Erfahrung kommen. 

Zielsetzung 

Die Medizincurricula der verschiedenen Fakultaten unter- 
scheiden sich deutlich in ihren Zielsetzungen und 
Schwerpunkten. Alle wollen jedoch - auf jeweils unter- 
schiedlichen Wegen - gute Arztinnen und Arzte ausbilden. 
Langerfristig muss daher gezeigt werden, inwieweit sich 
verschiedene Curricula auf den Erwerb des klinischen 
Denkens als arztliche Kernkompetenz auswirken. In ei- 
nem ersten Schritt wurde in dieser Pilotstudie an drei 
verschiedenen Medizinischen Fakultaten in NRW unter- 
sucht, inwiefern Unterschiede zwischen Studierenden 
verschiedener Curricula einerseits und zwischen unter- 
schiedlichen Ausbildungsstufen andererseits zu messen 
sind. 

Folgende Fragestellungen sollten beantwortet werden: 

1. Kann mittels DTI nachgewiesen werden, ob die Kom- 
petenz des klinischen Denkens in der Selbsteinschat- 
zung der Studierenden im Laufe des Studiums zu- 
nimmt? 

2. Bestehen Unterschiede in der Selbsteinschatzung 
bezuglich des klinischen Denkens zwischen Studie- 
renden verschiedener Studiengange und Curricula? 

Es ware zu vermuten, dass die Kompetenz des klinischen 
Denkens im Laufe des Studienfortschritts, also mit stei- 
gender Semesterzahl zunimmt. Unterschiede bei Studie- 
renden unterschiedlicher Curricula wurden sich zeigen, 
wenn sich z.B. die Anteile der Elemente wie PbL oder kli- 
nische Praktika unterscheiden. Die Studierenden der 
UW/H und des Modellstudiengangs der RUB durchlaufen 
Modellcurricula, die u.a. durch problemorientiertes Lernen 
(PbL) von Beginn an und - besonders an der UW/H - 
durch lange und zahlreiche klinische Praktika gekenn- 
zeichnet sind. An der UW/H ist PbL das zentrale Element 
in den ersten vierSemestern. Zusatzlich ist an der UW/H 
der Anteil an curricular verankerter klinischer Erfahrung 
von alien Studiengangen am hochsten. Ab der zweiten 
Halfte des vierten Semesters bis zum Praktischen Jahr 
werden allein 46 Wochen in klinischen Blockpraktika und 
sechsWochen in allgemeinmedizinischen Hospitationen 
verbracht. 
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Die beiden Studiengange an der RUB unterscheiden sich 
hinsichtlich ihres Curriculums. Der Regelstudiengang hat 
ein facherbezogenes traditionelles Curriculum mit einer 
sechswochigen PbL-lnsel im 4. Semester. Der IVlodellstu- 
diengang, ist themenbasiert aufgebaut und praxisbezo- 
gen. PbL ist ein strul<turierendes Studienelement in den 
ersten vierSemestern und wird danach studienbegleitend 
in den Semestern 5, 8 und 9 angeboten. Auch bezuglich 
ihrer Studierendenzahl unterscheiden sich die beiden 
Studiengange. Wahrend pro Studienjahr 42 Studierende 
in den IVlodellstudiengangaufgenommen werden, studie- 
ren im Regelstudiengang ca. 200 Studierende pro Jahr. 
Die Befragung schloss jeweils alle anwesenden Studie- 
renden im 7. und 9. Semester des Modellstudiengangs 
ein sowie zwei Seminargruppen der Lehrveranstaltung 
fur Allgemeinmedizin im Regelstudiengang des 7. Semes- 
ters. 

Der Modellstudiengang in K5ln bietet PbL nur in einem 
(ersten) Semester und spater nur in einzelnen Fachern 
an. 



Methodik 

Teilnehmer, Erhebungsinstrument 

Zur Messung der Selbsteinschatzung der wissensunab- 
hangigen Komponente des klinischen Denkens wurde 
das DTI (Diagnostic Thinking Inventory) herangezogen. 
Dazu wurde der ins Deutsche ubersetzte Fragebogen, 
derfreundlicherweise von Dr. Stieger [36] zur Verfugung 
gestellt wurde, in Modellstudiengangen an drei Fakultaten 
in Nordrhein-Westfalen (Bochum, Koln und Witten/Her- 
decke) und einem Regelstudiengang (Bochum) in maschi- 
nenlesbarer Form eingesetzt. 

Zur Beantwortung der Frage nach der Verbesserung des 
klinischen Denkens im Laufe des Studiums wurden un- 
terschiedliche Semester eines Studiengangs mit einbezo- 
gen. Dies war fur den Modellstudiengang der UW/H und 
im Modellstudiengang an der RUB der Fall. Zur Messung 
der Unterschiede im selbst eingeschatzten klinischen 
Denken zwischen Studierenden verschiedener Studien- 
gange und Curricula wurden fortgeschrittene Studierende 
an alien drei Standorten vor dem Praktischen Jahr befragt. 
An der UW/H stand zum Zeitpunkt der Studie nur ein 8. 
Semester als hochstes Semester vor PJ-Beginn zur Verfu- 
gung, da diese Studierenden zu einer Zeit ihr Studium 
begonnen hatten, als nur zum Sommersemester Einschrei- 
bungen moglich waren. An der RUB und an der UzK 
konnten Studierenden des 9. Semesters einbezogen 
werden (Studienbeginn zum Wintersemester). 
Die Fragebogen wurden an den beteiligten Universitaten 
im Zeitraum von Oktober bis Dezember 2010 zu jeweils 
einem Zeitpunkt in Prasenzveranstaltungen ausgeteilt 
und direkt wieder eingesammelt, in denen dasjeweilige 
Semester moglichst vollstandiganwesend war. 
Die Studierenden wurden direkt vor dem Austeilen des 
Fragebogens uber den Zweck des Projektes aufgeklart, 
die Teilnahme erfolgte freiwillig und die Befragung war 



anonym. Fine gesonderte Einwilligungserklarung wurde 
von den Teilnehmern nicht ausgefullt. 
Auf Wunsch wurde den Studierenden nach der Auswer- 
tungihre erreichte Punktzahl mit entsprechenden Erlau- 
terungen mitgeteilt. Dazu mussten sie die Nummer des 
Fragebogens angeben, den sie ausgefullt hatten, die Er- 
gebnisse wurden dann unterder Fragebogennummerzur 
Verfugung gestellt. 

Instrument 

Der DTI-Fragebogen misst die Selbsteinschatzung der 
wissensunabhangigen Komponente des klinischen Den- 
kens und bestehtaus insgesamt 41 Fragen (Beispielfra- 
gen siehe Tabelle 1). Dabei lassen sich 20 Fragen der 
Subskala „Flexibilitat des Denkens" und 21 Fragen der 
Subskala „Strukturierungdes klinischen Denkens" zuord- 
nen (Beispiele s. unten). Die Flexibilitat des Denkens bil- 
det die Fahigkeit des Teilnehmers ab, wahrend des Dia- 
gnoseprozesses auf die richtige Diagnose zu kommen 
und flexibel neue Informationen zu verarbeiten. Die 
Strukturdes Denkens spiegelt wider, wiegutdas klinische 
Wissen, auf das wahrend des Diagnoseprozesses zuruck- 
gegriffen wird, organisiert und verfugbar ist. Jede Frage 
besteht aus einem Fragenstamm (meist einer Feststel- 
lung) und einer Antwortskala. Die Antwortskala bietet 
zwei entgegengesetzte Antworten/Aussagen zu der Ein- 
gangsfeststellung mitsechs Auswahlfeldern zum Ankreu- 
zen dazwischen. Die Teilnehmer sollen das Feld ankreu- 
zen, das am besten ihre Einstellung auf der Skala zwi- 
schen den Antwortmdglichkeiten widerspiegelt. Die Fra- 
gen sind willkurlich „linksbundig" bzw. „rechtsbundig", 
d.h. die Antwort, die ein welter fortgeschrittenes klinisches 
Denken wiedergibt, ist unterschiedlich mal links Oder 
rechts aufgefuhrt. 

Beispiel fur eine Frage aus der Subskala Flexibilitat (siehe 
Abbbildung 1 ). 

Beim Anamnesegesprach 



bleibe ich oft bei 
einer mGglichen 
Diagnose hangen. 



fallt es mir leicht, 
unterschiedliche 
DiagnoseansStze 
abzuklaren. 



Abbildung 1 

Beispiel fur eine Frage aus der Subskala Struktur (siehe 
Abbildung 2). 

Wahrend ich Informationen zur Anamnese sammie, 



kann ich diese be- 
reits umfassend 
einteilen und 
klassifizieren. 



fallt es mir 
schwer, diese zu 
bewerten und den 
Bezug zueinander 
herzustellen. 



Abbildung 2 
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Tabelle 1: Anzahl und Zuordnung der Fragebogen 



Universitat 


Art des 

Studien- 

gangs 


Seme- 
ster 


Zahl der 
ausgeteil- 
ten Frage- 
bogen 


Zahl der 
ausgefull- 
ten Frage- 
bogen 


Zahl der 
auswert- 
baren 
Frage- 
bogen 


Verteilung 
weiblich/ 
mannlich [%] 


Witten/ 
Herdecke 


Modell 


5 


42 


33 


31 


58,6/41,4 


Witten/ 
Herdecke 


Modell 


6 


42 


25 


24 


66,6 / 33,4 


Witten/ 
Herdecke 


Modell 


8 


42 


25 


23 


56,5/43,3 


Ruhr-Universitat 


Model! 


7 


30 


28 


20 


50,0/50,0 


Ruhr-Universitat 


Regel 


7 


40 


31 


20 


53,5/46,5 


Rutir-Universitat 


Modell 


9 


37 


36 


29 


68,0/32,0 


Universitat zu 
Koln 


Modell 


9 


150 


141 


101 


58,5/41,5 



Auswertung 

Alle ausgefullten Fragebdgen wurden gescannt und mit- 
tels Analysesoftware (FormPro, Version 2.5) eingelesen. 
Zur Auswertung wurden nur diejenigen Fragebogen ein- 
bezogen, bei denen alle Fragen eindeutig beantwortet 
worden waren. 

Die erreichten Punkte wurden ausgerechnet, indem den 
Antwortfeldern die Werte 1 bis 6 zugeord net wurden. Die 
Antwort, die das ausgepragteste klinische Denken dar- 
stellte, erhielt jeweils die hochste Punktzahl. Es wurden 
sowohl die erreichte Punktzahl (maximal waren 246 
Punkte erreichbar) als auch die Subskalen Flexibilitat 
(max. 120 Punkte) und Struktur (max. 126 Punkte) fur 
jeden Teilnehmer berechnet. 

Fur die Ermittlungder internen Konsistenzdes DTI wurde 
Cronbachs alpha berechnet. Die Effektstarke wurde als 
Cohens d berechnet. 

Alle Daten wurden mittels SPSS 19.0 statistisch ausge- 
wertet. Da die Daten nicht normalverteilt waren (Uberpru- 
fung mittels Kolmogorov-Smirnov Anpassungstest), wur- 
den die einzelnen Gruppen gegeneinander mittels des 
Mann-Whitney-Test auf Unterschiede gepruft. Fur alle 
Tests wurde ein Signifikanzniveau von 5% gewahlt. Fine 
Bonferroni-Korrektur des alpha-Fehlers war bei der Zahl 
der durchgefiihrten Vergleiche nicht notwendig. 

Ergebnisse 

Fragebogen 

An den Umfragen beteiligten sich zwischen 48% und 78% 
der befragten Studierenden. Zwischen 71% und 95% der 
ausgefullten Fragebogen waren vollstandig und korrekt 
ausgefullt und auswertbar. 

Die auswertbaren Fragebogen der Testkohorten setzten 
sich wie folgt zusammen (siehe Tabelle 1 und 2 ). 



Intrafakultarer Vergleich 

in einer ersten Auswertung der drei Jahrgange der Univer- 
sitat Witten/Herdecke (UW/H) und der drei Kohorten der 
Ruhr-Universitat Bochum sollte uberpruft werden, ob 
mittels des DTI signifikante Unterschiede in derSelbstein- 
schatzungdes klinischen Denkens zwischen verschiede- 
nen Jahrgangen eines Curriculums bzw. gleichen Jahrgan- 
gen verschiedener Curricula gemessen werden kdnnen. 
Im Idealfall sollten die Fahigkeiten im klinischen Denken 
mit steigender Semesterzahl zunehmen. Bei den Studie- 
renden der UW/H (sieh Abbildung 3) wird so eine Zunah- 
me im mittels DTI selbst eingeschatzten klinischen Den- 
ken mit steigender Semesterzahl deutlich, der Anstieg 
vom 5. zum 8. Semester istsignifikant und hat eine hohe 
Effektstarke. Eine Zunahme vom 5. zum 6. Semester mit 
mittlerer Effektstarke zeigt sich ebenfalls, wahrend sich 
kein signifikanter Unterschied zwischen dem 6. und dem 
8. Semester messen lasst. 

Wenn die Veranstaltungen eines Modellstudiengangs das 
klinische Denken besser fdrdern als die in einem Regel- 
studiengang, dann sollten sich Unterschiede zwischen 
Kohorten nachgleicherStudiendauerin unterschiedlichen 
Curricula zeigen. 

Ein Vergleich der Studierenden im 7. Semester an der 
RUB konnte jedoch keinen Unterschied zwischen Studie- 
renden im Regel- und solchen im Modellstudiengang 
nachweisen. Es gab auch keine Zunahme der erreichten 
Punkte im DTI bei Studierenden im Modellstudiengang 
vom 7. zum 9. Semester (siehe Abbildung 4). 

Interfakultarer Vergleich 

In einem weiteren Vergleich wurden die Studierenden 
der drei beteiligten Modellstudiengange miteinander 
verglichen, und zwar jeweils das 9. Semester der Univer- 
sitaten Koln und Bochum und das 8. Semester der UW/H. 
Die Ergebnisse im mittels DTI selbst eingeschatzten klini- 
schen Denken der drei untersuchten Kohorten unterschie- 
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Tabelle 2: Angabe des Cronbachs alpha fur alle Fakultaten getrennt sowohl fur die Gesamtpunktzahl als auch die beiden 

Subskalen. 

Reliabilitat des Fragebogens 



Gruppe 


Summe alter 
Fragen 


Skala Flexibilitat 


Skala Struktur 


UWH 


0,82 


0,58 


0,75 


UzK 


0,71 


0,49 


0,60 


RUB 


0,83 


0,74 


0,73 



240 



220 



200 



180 



160 



140 



120 



100 



Gesamtpunktzahl 
UWH 



p = 0,001, d = 0,95 

I 1 



p = 0,048, d = 0,51 r- 



n.s. 



X 



X 




Jahrgang 27 Jahrgang 26 Jahrgang 25 

(5. Sem.) (6. Sem.) (8. Sem.) 

n = 31 n = 24 n = 23 

Abbildung 3: Vergleich der Semester 5, 6 und 8 der Universitat Witten/Herdecke. Dargestellt sind jeweils die in den Fragebogen 
erreichte IVIaximalsumme als Boxplot mit IVIedian (durchgezogene Linie), Mittelwert (gestrichelte Line), oberem und unterem 
Quartil (Box), den 5%/95% Perzentilen (Whiskers) und den Minimal- bzw. Maxlmalwerten (schwarzer Kreis). 
Oberhalb der Vergleiche sind jeweils der Signifikanzwert (p) und die Effektstarke (d) angegeben. 



den sich signifikant voneinander. Die Studierenden der 
UW/H erreichten hohere Punktzahlen als die Studieren- 
den deranderen beiden Fakultaten, und die Studierenden 
der RUB erzielten hdhere Gesamtpunkte als die der UzK 
(geringere Effektstarke bei diesem Vergleich), siehe Ab- 
bildung 5. 

Diskussion 

Das Ziel dieses Projekts war es, zu prufen, ob mit Hilfe 
des Diagnostic Thinking Inventory (DTI) sowohl Unterschie- 
de in derSelbsteinschatzungdes klinischen Denkens von 
Studierenden verschiedener Fakultaten als auch zwischen 
Studierenden unterschiedlicher Semester innerhalb einer 
Fakultat gemessen werden kdnnen. 
Die interne Konsistenz des Fragebogens fur den Gesamt- 
fragebogen war befriedigend bis gut, die der Subskalen 



dagegen nurgering. Daher wurde in alien Gruppen jeweils 
nur die erreichte Gesamtpunktzahl verglichen. 
Es lieSen sich signifikante Unterschiede sowohl zwischen 
einzelnen Jahrgangen einer Universitat (zunehmende 
Punktzahl im selbst eingeschatzten klinischen Denken 
bei Studierenden der UW/H) als auch zwischen vergleich- 
baren Studiensemestern einzelner Universitaten messen. 
Fur die Studierenden der UW/H ergeben sich damit Er- 
gebnisse, die der Eingangs-Hypothese entsprechen, dass 
mit zunehmendem Stud ienfortschritt das klinische Den- 
ken zunimmt. Beide Elemente, die laut Literatur dazu 
beitragen kdnnen (PbL [24], [25] und klinische Erfahrung 
in Form von Blockpraktika Oder Famulaturen [27], [28]), 
sind im Curriculum der UW/H stark vertreten. Wenn PbL 
allein eine Auswirkung auf das klinische Denken hatte, 
wurde man allerdings auch erwarten, dass die Studieren- 
den im Modellstudiengangder RUB hdhere Werte erzielen 
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Gesamtpunktzahl 
RUB 



240 



220 



200 - 



180 



160 



140 



120 



100 




RUB 
RSM 

7. Sem. 

n = 28 



RUB 
MSM 

7. Sem. 

n = 20 



RUB 

MSM 
9. Sem. 
n = 20 



Abbildung 4: Vergleich der Semester 7 des Regelstudiengangs Medizin (RSM) sowie die Semester 7 und 9 des Modellstudiengangs 
Medizin (MSM) der Ruhr Universitat Bochum. Dargestellt sind jeweils die in den Fragebogen erreichte Maximalsumme als 
Boxplot mit Median (durchgezogene Linie), Mittelwert (gestrichelte Line), oberem und unterem Quartil (Box), den 5%/95% 
Perzentilen (Whisl\ers) und den Minimal- bzw. Maximalwerten (schwarzer Kreis). 
Oberhialb der Vergleiche ist jeweils der Signifikanzwert (p) angegeben. 



als ihre Kommilitonen aus dem Regelstudiengang. Dies 
ist in dieser Studie nicht der Fall. 
Wenn man die am weitesten fortgeschrittenen Jahrgange 
aller untersuchten Fakultaten vergleicht, so zeigt sich 
auch hier, dass diejenigen aus der Fakultat mit den 
groSten Anteilen an PbL und klinischen Praktika die 
hdchsten Punkte erreichen, diejenigen, aus Curricula mit 
geringeren Anteilen an diesen Elementen, erzielen die 
schlechteren Ergebnisse. 

Um die gemessenen Daten nicht nur innerhalb der unter- 
suchten Gruppen zu verwenden und die erreichten 
Punktzahlen auf Plausibilitat zu uberprufen, wurden sie 
mit den von Bordage [29] gemessenen Werten verglichen. 
Die niedrigste in dieser Studie gemessene Gesamtpunkt- 
zahl einer Gruppe (Studierenden der UzK, 9. Semester 
mit 150,5 Punkten) liegen unterhalb der von Bordage 
gemessenen Werte fur Studierende im 3. Studienjahr 
(158,3 Punkt), wahrend die Gruppe mit der hdchsten er- 
reichten Punktzahl aus unserer Studie (UW/H, 8. Semes- 
ter mit 178,2 Punkten) oberhalb der fur Assistenzarzte 
in der Inneren Medizin (Senior House Officers: 168,4 
Punkte) und Hausarzte (General Pracitioners 172,3 
Punkte) gemessenen Werte liegt. Dies legt nahe, dass 
sich der DTI besondersfur innerfakultare Vergleiche eig- 
net, da eine Kalibrierungzwischen verschiedenen Syste- 
men schwierig ist. In der Studie von Bordage war von den 
Studierenden im ersten Studienjahr (153,9 Punkte) bis 



hin zu Registrars (180,2 Punkte) zwar ein kontinuierlicher 
Zuwachs an Punkten zu verzeichnen, die Unterschiede 
in unserer Studie sind zwischen den gemessenen Grup- 
pen jedoch grdSer. 

Der Fragebogen wurde bei freiwilligen Teilnehmern in 
nicht-standardisierter Umgebungaus drei verschiedenen 
medizinischen Fakultaten in Nordrhein-Westfalen einge- 
setzt. Dies bedeutet, dass die Ergebnisse nicht zwingend 
fur diejeweiligen Kohorten reprasentativsind. Besonders 
bei den fur den Regelstudiengang (7. Semester, RUB) 
erhobenen Daten ist die Streuung der Werte sehr groS, 
und die befragten Teilnehmer (40) sind nur eine kleine, 
zufalligausgesuchte Gruppe der Gesamtkohorte. Daher 
ist es fraglich, wie reprasentativ die Daten dieser Stich- 
probe fur ihren Jahrgang sind. 

In Koln und an der UW/H wurden die Testbdgen zudem 
im Anschluss an den Progress-Test ausgegeben, was zum 
Tell fur die recht geringe Rucklaufquote, die niedrige Re- 
liabilitat und die niedrigen Gesamtergebnisse verantwort- 
lich sein kann. Die Reliabilitat und die Gesamtpunktzahlen 
sind an der UW/H hoher. Hier kann sich motivationsstei- 
gernd ausgewirkt haben, dass der soziale Druck teilzu- 
nehmen, in der kleinen Kohorte groSer ist. Auch der Anteil 
der nicht auswertbaren Fragebdgen ist an der UW/H ge- 
ringer. Die B5gen der UzK konnten etwa in einem Drittel 
der Falle nicht ausgewertet werden; daher muss der 
Vergleich mit den Werten der UzK kritisch betrachtet 
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Vergleich UWH : UzK : RUB 
Gesamtpunktzahl 
Semester 8 bzw. 9 



240 



220 



200 



180 



160 - 



140 



120 



100 



p = 0,048, d = 0,68 



p < 0,001, d = 0,95 



p = 0,023, d = 0,32 





X 




UWH 
Jahrgang 25 
(8. Sem.) 
n= 23 



UzK 
9. Sem. 
n = 127 



RUB 
MSM 

9. Sem. 

n = 20 



Abbildung 5: Vergleich der Semester 8 bzw. 9 der Universitaten Witten/Herdecke (UWH), Universitat zu Koln (UzK) und 
Ruhr-Universitat Bochum (RUB). Dargestelltsind jeweilsdie in den Fragebogen erreichte IVIaximalsumme als Boxplot mit IVIedian 
(durchigezogene Linie), IVIittelwert (gestrichelte Line), oberem und unterem Quartil (Box), den 5%/95% Perzentilen (Whisl<ers) 

und den IVIinimal- bzw. IVIaximalwerten (schwarzer Kreis). 
Oberhalb der Vergleiche sind jeweils der Signifikanzwert (p) und die Effektstarke (d) angegeben. 



werden. Die Fragebogen, die nictit in alien Fragen eine 
eindeutige Antwortaufwiesen, wurden in der Auswertung 
nicht berucksichtigt. In vielen der Fragebogen war trotz 
der Aufforderung, immer ein Kastchen zwischen den 
Aussagen anzukreuzen, die Trennlinie zwischen zwei 
Kastchen gewahit worden, da sich die Studierenden of- 
fensichtlich nicht fur einen Wert der Skala entscheiden 
wollten. Dies war auch auf den Bogen zu beobachten, 
die von den Studierenden der RUB ausgefullt wurden und 
ist der Grund fiir den geringen Anteil auswertbarer Frage- 
bogen. Des Weiteren muss man bei der Interpretation 
der Daten berucksichtigen, dass es sich beim DTI zwar 
um ein etabliertes Instrument handelt, dass es allerdings 
nicht objektiv das klinische Denken sondern iediglich die 
Selbsteinschatzung der Studierenden in dieser Disziplin 
misst. Eine (durchaus erwunschte) insgesamt kritische 
Haltungim Hinblickauf die eigenen Kompetenzen kdnnte 
namlich die Selbsteinschatzung zu klinischem Denken 
negativ beeinflussen. Auch in dem Ma6 der Selbstkritik 
kdnnen sich die untersuchten Kohorten durchaus unter- 
scheiden. Hierzu wurde kein weiteres Instrument einge- 
setzt, das zur Standardisierung in diesem Punkt hatte 
dienen konnen. IVlan kann beispielsweise davon ausge- 
hen, dass sich mannliche Studierende eher in ihren 



Kompetenzen uberschatzen [38]. In der Verteilung 
mannlich/weiblich unterscheiden sich die untersuchten 
Gruppen jedoch nicht signifikant voneinander. Daher 
sollten die in dieser Studie gefundenen Unterschiede 
nicht durch eine geschlechts-spezifische Uberschatzung 
der Studierenden der UW/H und eine Unterschatzung 
derer in Koln bedingtsein. 



Zusammenfassung 



Zusammenfassend kann man aus dieser Pilotstudie 
schlieSen, dass der DTI als Instrument durchaus geeignet 
ist, das selbsteingeschatzte klinische Denken bei Studie- 
renden unterschiedlicher Curricula vergleichend zu erhe- 
ben. 

Die Studie hat aber auch gezeigt, dass weitere Schritte 
unternommen werden mussen, wenn die gemessenen 
Unterschiede auf die Verteilung unterschiedlicher curricu- 
larer Elemente wie z.B. PbL oder klinisch-praktische Er- 
fahrung zuruckgefuhrt werden sollen. 
Grundsatzlich muss gewahrleistet werden, dass die Be- 
fragung unter vergleichbaren Bedingungen stattfindet, 
wobei eine hohere Rucklaufquoteerreicht werden muss. 
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Zusatzlich erscheint es notwendig, ein weiteres Inventar 
einzusetzen, um zu uberprufen, ob die Studierenden zu 
SelbstuberschatzungZ-unterschatzung neigen. 
Der DTI selbstsollte durch weiterefachbezogene objekti- 
ve Tests zum klinischen Denken und Verhalten weiterge- 
hend validiert werden [39], z.B. im Sinne eines Key Fea- 
ture [40], Script Concordance [41] oder Situational Jud- 
gement Tests [42]. 

Interessenkonflikt 

Die Autoren erklaren, dass sie keine Interessenkonflikte 
im Zusammenhang mit diesem Artikel haben. 
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Abstract 

Objectives: As a fundamental element of medical practice, clinical 
reasoning should be cultivated in courses of study in human medicine. 
To date, however, no conclusive evidence has been offered as to what 
forms of teaching and learning are most effective in achievingthisgoal. 
The Diagnostic Thinking Inventory (DTI) was developed as a means of 
measuring knowledge-unrelated components of clinical reasoning. The 
present pilot study examines the adequacy of this instrument in meas- 
uring differences in the clinical reasoning of students in varying stages 
of education in three curricula of medical studies. 
Methods: The Diagnostic Thinking Inventory (DTI) comprises 41 items 
in two subscales ("Flexibility in Thinking" and "Structure of Knowledge 
in Memory"). Each item contains a statement or finding concerning 
clinical reasoning in the form of a stem under which a 6-point scale 
presents opposing conclusions. The subjects are asked to assess their 
clinical thinking within this range. The German-language version of the 
DTI was completed by 247 student volunteers from three schools and 
varying clinical semesters. In a quasi-experimental design, 219 subjects 
from traditional and model courses of study in the German state of 
North Rhine-Westphalia took part. Specifically, these were 5'^ 6'" and 
8* semester students from the model course of study at Witten/Her- 
decke University (W/HU), from the model (7'" and 9* semester) and 
traditional (7'^ semester) courses of study at the Ruhr University Bochum 
(RUB) and from the model course of study (9* semester) at the University 
of Cologne (UoC). The data retrieved were quantitatively assessed. 
Results: The reliability of the questionnaire in its entirety was good 
(Cronbach's alpha between 0.71 and 0.83); the reliability of the sub- 
scales ranged between 0.49 and 0.75. The different groups were 
compared using the Mann-Whitney test, revealing significant differences 
among semester cohorts within a school as well as between students 
from similar academic years in different schools. Amongthe participants 
from the model course of study at the W/HU, scores increased from 
the 5"^ to the 6'" semester and from the 5'" to the 9'" semester. Among 
individual cohorts at RUB, no differences could be established between 
model and traditional courses of study or between 7'" and 9* semester 
students in model courses of study. Comparing all participating highest 
semester students, the 8'^ semester participants from the W/HU 
achieved the highest scores - significantly higher than those of 9'" 
semester RUB students or 9* semester UoC students. Scores from the 
RUB 9* semester participants were significantly higher than those of 
the 9'" semester UoC participants. 

Discussion: The German-language version of the DTI measures self- 
assessed differences in diagnostic reasoning among students from 
various semesters and different model and traditional courses of study 
with satisfactory reliability. The results can be used for discussion in 
the context of diverse curricula. The DTI is therefore appropriate for 
further research that can then be correlated with the different teaching 
method characteristics and outcomes of various curricula. 

Keywords: clinical thinking, clinical reasoning, PBL, diagnostic thinking 
inventory 
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Introduction 

Clinical thinking is a central component of physician 
competence. Optimal patient care depends on thorough 
analysis of the information provided by the patient and 
on the risk-benefit assessment of diagnostic tests and 
therapies. 

It follows that every university-level programme of medical 
education must have the objective of forming good clinical 
reasoning skills in its students. Conclusive evidence of 
the particular advantages of specific types of teaching in 
fostering these skills, however, has yet to be provided. 
Clinical problems present essential differences in com- 
parison to well-structured tasks. Necessary information 
is not available in its entirety at the beginning of the pro- 
cess, and the nature of a problem can change its dynam- 
ics duringthe diagnostic-therapeutic process (case history 
and examination). The task is a matter of complex prob- 
lem solving because there are no standardised proced- 
ures for arriving at a solution; instead, each problem is 
unique, and the physician can never be fully certain that 
the solution found is actually correct [1], [2]. 

Models of clinical reasoning 

This subject has been intensively worked on within the 
field of educational research since the 1970s. The object- 
ive is to better qualify which processesare atworkduring 
clinical reasoning and to identify differences between 
experts and novices. From this information, it should be 
possible to draw conclusions that will aid better instruc- 
tion in clinical reasoning. 

Over the course of this time, many concepts explaining 
the acquisition of expertise in clinical reasoning alternated 
and were further developed [3]. One concept, for example, 
is that of so-called "illness scripts" [4]. These are repres- 
entations of problems (diseases, for example), syndromes 
or groups of diseases along with the conditions in which 
they occur, their manifestations, diagnoses and therapy 
concepts, as well as their pathophysiological bases. 
Other models emphasise the particular benefit of practical 
experience in achieving medical expertise [5], [6]. Empir- 
ical evidence shows that skills associated with clinical 
problem solving were more developed among experts 
than among novices [7]. It was shown, for example, that 
the expert's knowledge in memory is primarily linked to- 
gether by probabilities [4], or that it is characterised by 
reference models which are spontaneously recognised 
and then confirmed with hypothetico-deductive methods 
[2]. Furthermore, experts are better at using so-called 
"semantic qualifiers" that classify a symptom on a bipolar 
scale or in the quality of key features recognised in a 
patient history [8]. 

Clinical reasoning, however, is also dependent on content 
and context [9], and expertise in one area does not ne- 
cessarily mean that comparable skills are available in a 
different specialised discipline or medical case. In fact, 
it is not even possible to generalise expertise within a 
field [10], [11]. 



None of these approaches are seen as mutually exclusive 
today [12]. As a result, experts make parallel use of 
analytical (deductive, controlled) and non-analytical (un- 
conscious, spontaneous) processes in resolving patient 
cases. This is because effective clinical problem solving 
is based on clear procedures of information gathering, 
hypothesis formation and hypothesis testing on the one 
hand, while a diagnosis depends on knowledge of the 
underlying mechanisms and the problem-related integra- 
tion and mental organisation of this information on the 
other. Recognition of patterns accelerates recollection 
[13]. The two processes complement each other and a 
bidirectional exchange of information takes place. 

Teaching clinical reasoning 

The question of how to optimally teach students such 
complex abilities has, for good reason, yet to be definit- 
ively answered. Students who had been instructed in the 
heuristic method of concurrent hypotheses (Bayes' The- 
orem), for example, were able to implement the method 
satisfactorily following the teaching unit but later failed 
in the clinic when it came to transferring this abstract 
model into practice [14]. Other studies showed that work 
on didactically chosen patient cases with errors and 
elaborated feedback or on case studies with instruction 
had a positive effect on clinical reasoning in the respect- 
ive trial setting [15], [16], [17]. 

To date, two teaching and learning environments have 
almost unanimously proved effective in facilitating clinical 
reasoning: problem-based learning (PBL) and clinical 
praxis/clinical experience [18], [19], [20]. 
Because it is particularly well-suited to learning and 
practicing the problem solving process [21], PBL should 
contribute to students' mastering of clinical reasoning 
[18] [20]. PBL combines content with context, and the 
application of memorised knowledge to clinical problems 
fosters the development of coherent, pathophysiological 
concepts [21], [22]. Meta-analysis [23] of the question 
of which types of instruction promote clinical reasoning 
revealed two studies showing that students improved 
their critical thinking with PBL [24], [25] and that they 
were able to deliver more accurate, more coherent and 
more comprehensive explanations for medical problems 
than other students [22]. Critical thinking and clinical 
reasoning are not necessarily comparable, however. 
Concrete clinical experience with patients is a further in- 
dispensable factor in the development of clinical reason- 
ing. Firstly, students must also practice their acquired 
abilities [26], and secondly, clinical reasoning is strongly 
influenced by experience [12] and is a consequence of 
resulting multidimensional knowledge. It was shown that 
the students' stages of development often corresponded 
to their clinical experience, for example, rather than to 
their academic year [27], [28]. 

On the basis of these findings, traditional curricula, in 
which instruction is limited to the subject at hand, little 
PBL is implemented and clinical experience comes later 
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and often to a lesser extent, presumably offers students 
less opportunity to learn and practice clinical reasoning. 

Measuring clinical reasoning 

In 1990, in orderto measure clinical reasoning by means 
of self-assessment, Bordage and Marsden developed a 
corresponding inventory [29] - the Diagnostic Thinking 
Inventory (DTI). Until then, inventories were used that 
measured critical instead of clinical reasoning, for in- 
stance. Subjects were asked to outline their thinking 
processes either orally or in written form, or the solving 
of a concrete clinical problem was tested. The DTI, on the 
other hand, is an instrument that measures both self- 
evaluated flexibility in thinking and structure of knowledge 
in memory independently of context and can also differ- 
entiate between medical experts of varying degrees of 
training. It is comprised of 41 items in which subjects use 
a scale to evaluate themselves in predefined situations. 
The answers, in turn, represent a specific degree of clin- 
ical reasoning. The original research was conducted 
among 270 test subjects with different degrees of training 
- from first-semester students to experienced physicians. 
Significant differences between students and physicians 
were revealed, whereas the differences between physi- 
cians of varying degrees of experience were insignificant. 
The DTI inventory was implemented and validated in 
various studies in the following years [30] and was also 
analysed in conjunction with other cognitive or psycho- 
metric tests [31]. 

In total, the present study results reached with the DTI 
are not consistent. In the majority of studies, the students' 
DTI results improved significantly with instruction in clin- 
ical problem solving, instruction in diagnostic procedure 
errors, through the handling of patient cases, through 
participation in diagnostic case discussions or with in- 
creasing semesters of study [32], [33], [34], [35], [36]. 
Two other studies, however, showed that the conducted 
interventions did not lead to any improvements in the DTI 
[26], [37]. 

The inventory measures the self-assessment of the parti- 
cipants on the type and structure of their clinical reason- 
ing, but it does not measure their actual diagnostic ability. 
For this reason, the correlation between DTI results and 
resolved cases or determined diagnoses is often 
weak.6,32 In addition to clinical reasoning skills, a cor- 
responding knowledge base in the respective specialist 
field and clinical experience are required to arrive at the 
correct diagnosis. 

Objectives 

The medical curricula of different schools vary significantly 
in their objectives and focal points. Despite their differing 
paths, their common goal is an education that will pro- 
duce good physicians. In the long term therefore it is ne- 
cessary to provide evidence as to the effect that different 
curricula have on acquiring clinical reasoning as a core 
competence of physicians. As a first step, this pilot study. 



conducted in three different medical schools in North 
Rhine-Westphalia, examined the measurability of differ- 
ences between students of varying curricula, on the one 
hand, and between differing stages of study, on the other. 
Answers to the following questions were sought: 

1. Can an increase in the students' self-assessed clinical 
reasoning competence over the course of their studies 
be evidenced using DTI? 

2. Are there differences regarding clinical-reasoning-re- 
lated self-assessment between students from varying 
courses of study and curricula? 

Presumably, clinical reasoning competence would in- 
crease with the advance of study (i.e., advancing academ- 
ic semesters). Differences between students of varying 
curricula would be apparent when, for example, the 
amount of elements such as PBL or clinical training 
differed. Students at W/HU and in the model course of 
study at RUB undergo model curricula that are character- 
ised in part by problem-oriented learning (PBL) from their 
start and - particularly at W/HU - by long and numerous 
clinical traineeships. PBL is the central element of the 
first four semesters at W/HU. In addition, the amount of 
clinical experience prescribed by the curricula of W/HU 
is the highest among all of the courses of study. Starting 
from the second half of the fourth semester until the 
practical year at the end of their studies, 46 weeks are 
devoted to blocks of practical traineeships, while six 
weeks are spent in on-site observation in general medi- 
cine. The two courses of study at RUB differ in regard to 
their curriculum. The traditional course of study has a 
subject-related traditional curriculum with a six-week PBL 
block in the fourth semester. The model course of study 
is theme-based and praxis-related. TBL is a structuring 
element in the firstfour semesters and is offered concur- 
rently with 5'^ 8'^ and 9'^ semester studies. The two 
courses of study also differ in numbers of students. While 
42 candidates are accepted to the model course of study 
programme per academic year, the traditional course of 
study admits 200 students per year. The survey included 
all students present in the 7'" and 9'" semesters of the 
model course of study as well as two seminar groups from 
the general medicine course in the 7'^ semester of the 
traditional course of study. 

Methods 

Participants, survey instrument 

In order to measure the self-assessment of memory-un- 
related components of clinical reasoning, the DTI (Dia- 
gnostic Thinking Inventory) was implemented. To this end, 
the German-language translation of the questionnaire 
(courtesy of Dr. Stieger [36]) was administered in the 
model courses of study at three schools in North Rhine- 
Westphalia (Bochum, Cologne and Witten/Herdecke) and 
in one traditional course of study (Bochum) in machine- 
readable form. 
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In order to answer the question of whether clinical reas- 
oning improved with the duration of study, different 
semesters within a course were included. This was the 
case for the model course atW/HU and the model course 
at RUB. As a measurement of differences in self-assessed 
clinical reasoning between students of varying courses 
and curricula, advanced students from all three locations 
were surveyed prior to their practical (final) year. At the 
time of our study, the 8* semester was the most ad- 
vanced pre-practical-year semester available at W/HU 
because these students had enrolled in a period when 
registration was only possible for the summer semester 
(beginning in spring at German universities). It was pos- 
sible to include 9'" semester students from RUB and UoC, 
as their studies had commenced in the winter semester 
(beginning in autumn at German universities). 
The questionnaires were distributed for completion and 
immediately collected again at the participating universit- 
ies in a period between October and December 2010 at 
a specific time, in each case, when face-to-face instruction 
was taking place, at a point of greatest possible attend- 
ance of that semester's students. 
The students were briefed on the purpose of the project 
directly preceding the distribution of questionnaires. 
Participation was voluntary and the survey was anonym- 
ous; separate declarations of consent were not given. 
Following evaluation, students' scores and respective 
commentary were made available to them upon request 
and presentation of the correlating questionnaire number. 
The results were then made available under that num- 
ber's reference. 
Instrument 

The DTI questionnaire measures the self-assessment of 
non-knowledge-related components of clinical reasoning 
and comprises 41 questions (see sample questions, table 
1). Twenty of these can be allocated to the subscale 
"flexibility in thinking" and 21 to the subscale "structure 
of memory" (see examples below). "Flexibility in thinking" 
illustrates the participants' ability during the diagnostic 
process to arrive at the correct diagnosis and to flexibly 
incorporate new information. "Structure in memory" re- 
flects the degree of organisation and accessibility of the 
memorised knowledge from which the participants' draw. 
Every question is composed of a stem (usually a state- 
ment) and a response scale. At each end, the response 
scale offers two opposing answers/statements in re- 
sponse to the initial statement, with six boxes between 
to select from. Participants are asked to check the box 
in the scale that best reflects their position between the 
response options. The options are randomly placed either 
at the left or the right end of the scale which means that 
the response reflecting more advanced clinical reasoning 
could be at either end. 

Sample question from the flexibility subscale (see figure 
!)■ 



When I am interviewing a patient, 



I often seem to 
have a fixed idea 
in my mind about 
what might be 
wrong. 



I usually find it 
easy to explore 
various possible 
diagnoses. 



Figure 1 

Sample question from the structure subscale (see figure 
2). 

When I am collecting information about a patient. 



The individual 
units of 
information 
usually seem to 
group themselves 
in my mind. 



I am often 
unable to see 
how the units of 
information 
relate to each 
other. 



Figure 2 

Evaluation 

All of the completed questionnaires were scanned and 
were then read using analysis software (FormPro 2.5). 
Only questionnaires in which all questions had been 
clearly answered were included. Score results were cal- 
culated by assigning values of 1 to 6 to the selection 
boxes. The response showing the most pronounced clin- 
ical reasoning was given the highest score. The total score 
achieved (a maximum of 126 points possible) as well as 
the points in the subscales "flexibility" (max. 120 points) 
and "structure" (max. 126 points) were calculated for 
each participant. Cronbach's alpha was used in determ- 
iningthe consistency of the DTI. Effect size was calculated 
as Cohen's d. 

All data were statistically analysed using SPSS 19.0. Since 
the data were not normally distributed (checked with the 
Kolmogorov-Smirnov goodness-of-fit test), the individual 
groups were checked for differences using the Mann- 
Whitney test. A significance level of 5% was chosen. 
Considering the number of comparisons performed, a 
Bonferroni correction of alpha errors was not necessary. 



Results 

Questionnaires 

Between 48% and 78% of the students solicited took part 
in the survey. Between 71% and 95% of the returned 
questionnaires were complete and evaluable. 
The test cohorts' evaluable questionnaires were divided 
as follows (see table 1 and 2 ). 

Intra-faculty comparison 



An initial evaluation of the three represented academic 
years from Witten/Herdecke University and the three co- 
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Table 1: number and allocation of questionnaires 



University 


Type of 
studies 


Semester 


Number 
of 

question- 
naires 
distri- 
buted 


Number of 
com- 
pleted 
question- 
naires 


Number of 
eva-luated 
question- 
naires 


Distri- 
bution 
female/ 
male 
[%] 


Witten/Herdecke 


Model 


5 


42 


33 


31 


58.6/ 
41.4 


Witten/Herdecke 


Model 


6 


42 


25 


24 


66.6/ 
33.4 


Witten/Herdecke 


Model 


8 


42 


25 


23 


56.5/ 
43.3 


Ruhr University 


Model 


7 


30 


28 


20 


50.0/ 
50.0 


Ruhr University 


Traditional 


7 


40 


31 


20 


53.5/ 
46.5 


Ruhr University 


Model 


9 


37 


36 


29 


68.0/ 
32.0 


University of 
Cologne 


Model 


9 


150 


141 


101 


58.5/ 
41.5 



Table 2: Cronbach's alpha for all schools, listed by total score as well as by subscale scores. 

Questionnaire reiiabiiity 



Group 


Sum total 


Flexibility scale 


Structure scale 


UWH 


0.82 


0.58 


0.75 


UoC 


0.71 


0.49 


0.60 


RUB 


0.83 


0.74 


0.73 



horts from Ruhr University Bochum was targeted at re- 
vealing the value of DTI in measuring significant differ- 
ences in the self-assessment of clinical reasoning 
between varying academic years of one curriculum or, 
respectively, differences between academic years of dif- 
ferent curricula. 

Ideally, abilities in clinical reasoning would increase with 
the number of semesters attended. Among students at 
W/HU (see figure 3), a distinct corresponding semester- 
related increase in self-assessed clinical reasoning was 
evidenced using DTI; the increase from the 5* to the 8* 
semester is significant and has a large effect size. An in- 
crease from the 5'" to the 6'^ semester, of medium effect 
size, is also evidenced, while no significant difference 
could be detected between the 6'" and 8'" semesters. 
If model courses of study compared are more conducive 
to the facilitation of clinical reasoning in comparison with 
traditional courses, then differences between cohorts 
with differing curricula but the same length of study 
should be detectable. In a comparison of 7* semester 
RUB students, however, no difference could be evidenced 
between those from traditional studies and those from 
model studies (see figure 4). 



Inter-faculty comparison 

In a further study, students from the three participating 
model courses were compared; namely 9'" semester 
students from both the University of Cologne and Ruhr 
University Bochum, and 8'" semester students from Wit- 
ten/Herdecke University. The three cohorts' results from 
the self-assessment of clinical reasoning using DTI 
differed significantly. The students from W/HU achieved 
higher scores than the students from both of the other 
schools, and the students from RUB achieved higher 
overall scores than the students from UoC (lesser effect 
size in this comparison) - see figure 5. 

Discussion 

The objective of the project was to examine the effective- 
ness of measuring differences in self-assessment with 
the aid of the Diagnostic Thinking Inventory not only 
between students from different faculties but also 
between students in different semesters within one fac- 
ulty. 

The internal consistency of the questionnaire was accept- 
able to good; that of the subscales, however, was meagre. 
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Overall score: University of Wltten/Herdecke 



240 



220 



200 



180 



160 



140 



120 - 



100 



p = 0,001, d = 0,95 



p = 0,048, d = 0,51 



n.s. 



X 



5 semester 6 semester 8 semester 

n = 31 n = 24 n = 23 

Figure 3: Overall Score W/HU - Comparison of 5'", 6'" and 8" semesters at Witten/Herdecke University (German abbr. UW/H). 
The respective maximum scores achieved in the questionnaires are depicted in a boxplot with median (solid line), mean score 
(dashed line), upper and lower quartile (box), the 5%/95% percentiles (whiskers) and minimum or maximum score (black circle). 
The respective p-value (p) and effect size (d) are listed above the comparisons. 



As a result, only the respective total scores were com- 
pared in all groups. 

Significant differences could be measured both between 
individual academic years at a university (increasing 
scores in the self-assessed clinical reasoning of students 
from Witten/Herdecke University) as well as between 
comparable semesters at different universities. The res- 
ults from students at W/HU corresponded to the initial 
hypothesis that clinical reasoningskills increase with the 
advance of course studies. Both of the elements that, 
according to references, can aid this development (PBL 
[24], [25] and clinical experience in the form of blocks of 
practical training or clinical traineeships [27], [28]), are 
soundly represented in the curriculum of W/HU. If PBL 
alone had an effect on clinical reasoning, then higher 
scores would be expected from students in the model 
courses of study at RUB than from their fellow students 
from traditional courses. This, however, was not evid- 
enced in this study. 

A comparison of all students from the most advanced 
academic years of the schools surveyed also shows that 
courses of study with the greatest amount of PBL and 
practical clinical experience achieve the highest scores, 
whereas those students with curricula displaying lesser 
amounts of these elements attain lower results. 
In order not to limit the resulting data to use within the 
survey groups and to screen the attained scores for 
plausibility, they were compared with the results meas- 
ured by Bordage [29]. The lowest measured total score 



of a group in the present study (students from the UoC, 
9* semester with 150.5 points) are below the results re- 
corded by Bordage for students in their 3'" academic year 
(158.3 points), while results from the group with the 
highest achieved scores in our study (W/HU, 8th semester 
with 178.2 points) are above the results measured for 
senior house officers (168.4 points) and general practi- 
tioners (172.3 points). This suggests that DTI is particu- 
larly well-suited to intra-faculty comparisons due to the 
difficulty of calibration for varying systems. Whereas the 
Bordage study showed evidence of a continual score in- 
crease from first-year students (153.9 points) to registrars 
(180.2 points), the differences found between the sur- 
veyed groups in our study was greater. 
The questionnaire was implemented in a non-standard- 
ised settingamong three different medical schools in the 
German State of North Rhine-Westphalia. The results are 
therefore not necessarily representative for the respective 
cohorts. The variance of results in the data collected for 
the traditional course of study (7'" semester, RUB) is 
particularly great, and the participants (40) represent 
only a small, randomly chosen group from the whole of 
the cohort. Consideringthis, it is questionable if the data 
are representative for students of this academic year on 
the whole. 

In Cologne and at WH/U, the questionnaires were handed 
out following a progress test, which could explain the low 
response rate, the poor reliability and the lower overall 
results. The reliability and overall scores were higher at 
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Figure 4: Overall Score RUB - Comparison of 7'" semester traditional studies in medicine (German abbr. RSM) and 7'" and 8'" 

semester model studies in medicine (MSM) at Ruhr University Bochum. The respective maximum scores achieved in the 
questionnaires are depicted in a boxplot with median (solid line), mean score (dashed line), upper and lower quartile (box), the 
5%/95% percentiles (whiskers) and minimum or maximum score (black circle). 
The respective p-value (p) and effect size (d) are listed above the comparisons. 



W/HU. Greater peer pressure may have had a motivating 
effect in the smaller cohort in this case. The percentage 
of nonevaluable questionnaires from W/HU was also 
lower. Beingthat approximately one third of the question- 
naires from the UoC were not evaluable, comparisons 
using their results should be viewed critically. Question- 
naires without clear responses to all of the questions 
were not factored in. Despite the instruction to check one 
of the boxes between the proposed statements, many 
students chose to mark the dividing line between two 
boxes, evidently unable to decide on a value offered in 
the continuum. This was also observed in the question- 
naires filled out by students from RUB and is the reason 
for the low percentage of evaluable returns from this 
location. Furthermore, we must bear in mind when inter- 
preting the data that although the DTI is an established 
instrument, it does not objectively gauge clinical reasoning 
as such but serves as a measure of the self-assessment 
of students in this discipline. An (indeed desirable) overall 
critical stance in respect to their own competence could 
have a negative influence on the students' self-assess- 
ment concerning clinical reasoning. Undoubtedly, the 
surveyed cohorts can also differ in the extent of their self- 
criticism. No further instrument was implemented that 
could have served to standardise this aspect. One can 
assume, for instance, that male students tend to over- 
assess their competence [38]. The male/female distribu- 
tion did not differ significantly in the surveyed groups. 



however. For this reason, the differences discovered in 
this study should not be attributable to a gender-related 
overassessment among the students at W/HU and an 
underassessment among those in Cologne. 

Conclusions 

In summary, the present pilot study indicates that the DTI 
is an appropriate instrument for a comparative survey of 
self-assessed clinical reasoning among students with 
various curricula. 

The study did, however, also show that further steps must 
be taken if inferences are to be drawn from the measured 
differences about the effect of apportionment of different 
curricular elements such as PBL or clinical-practical ex- 
periences. 

Principally, it must be ensured that the survey is conduc- 
ted under comparable circumstances, whereby a higher 
rate of return must be reached. Further, it would seem 
necessary to implement an additional inventory in order 
to investigate possible self-overassessments or self-un- 
derassessments by the students. The DTI itself should 
be further validated with other specialised, objective tests 
for clinical reasoning and conduct [39], for example key 
feature [40], script concordance [41] or situational 
judgement [42] tests. 
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Figure 5: Comparison of Overaii Scores W/HU, UoC, RUB - Comparison of the 8'" and 9'" semesters respectively from 
Witten/Herdecl<e University (German abbr. UW/H), the University of Cologne (German abbr. UzK) and Ruhr University Bochum 
(RUB). The respective maximum scores achieved in the questionnaires are depicted in a boxplot with median (solid line), mean 
score (dashed line), upper and lower quartile (box), the 5%/95% percentiles (whiskers) and minimum or maximum score (black 

circle). 

The respective p-value (p) and effect size (d) are listed above the comparisons. 
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